어휘 크기

작성자

익명

작성일

2026.07.03

조회수

버전

자연어 처리 어휘 크기 토큰화 서브워드 토큰화 BPE OOV 문제 LLM 임베딩 층 중급

어휘 크기 (Vocabulary Size)

1. 개요

어휘 크기(Vocabulary Size)란 자연어 처리(NLP) 모델이 텍스트 데이터를 처리하기 위해 정의한 고유한 토큰(Token)의 총 개수를 의미한다. 언어 모델은 텍스트를 직접 이해할 수 없으므로, 텍스트를 숫자 형태의 벡터로 변환하는 과정이 필요하다. 이때 모델이 인식할 수 있는 '단어 사전'의 크기가 바로 어휘 크기가 된다.

어휘 크기는 모델의 성능, 메모리 사용량, 그리고 학습 속도에 직접적인 영향을 미치는 핵심 하이퍼파라미터 중 하나이다.

2. 토큰화와 어휘 크기의 관계

어휘 크기를 결정하기 위해서는 먼저 텍스트를 어떤 단위로 쪼갤 것인지 결정하는 토큰화(Tokenization) 전략이 선행되어야 한다.

2.1. 단어 단위 토큰화 (Word-level Tokenization)

공백이나 구두점을 기준으로 단어를 나누는 방식이다. - 특징: 직관적이며 단어의 의미를 잘 보존한다. - 문제점: - 어휘 폭발: 언어의 형태소 변화가 심할수록(예: 한국어, 영어의 굴절어) 어휘 크기가 기하급수적으로 증가한다. - OOV(Out-of-Vocabulary) 문제: 학습 데이터에 없던 단어가 등장하면 모델이 이를 처리하지 못하고 [UNK](Unknown) 토큰으로 처리하게 된다.

2.2. 문자 단위 토큰화 (Character-level Tokenization)

개별 문자(알파벳, 한글 자모음 등) 단위로 나누는 방식이다. - 특징: 어휘 크기가 매우 작으며(예: 영어 알파벳 26자 + 특수문자), OOV 문제가 발생하지 않는다. - 문제점: - 토큰 하나가 가지는 의미가 너무 적어 모델이 문맥을 파악하기 위해 더 긴 시퀀스를 처리해야 하므로 연산 비용이 증가한다.

2.3. 서브워드 토큰화 (Subword Tokenization)

단어와 문자 단위의 절충안으로, 빈번하게 등장하는 문자열은 하나의 토큰으로 묶고, 드문 문자열은 더 작은 단위로 쪼개는 방식이다. 현대의 LLM(Large Language Models)에서 주로 사용된다. - 주요 알고리즘: - BPE (Byte Pair Encoding): 가장 빈번한 문자 쌍을 반복적으로 병합하여 어휘 사전을 구축한다. (GPT 시리즈에서 사용) - WordPiece: 가능도(Likelihood)를 최대화하는 방향으로 병합한다. (BERT에서 사용) - SentencePiece: 공백을 포함하여 학습하며, 언어에 구애받지 않고 적용 가능하다. (T5, Llama 등에서 사용)

3. 어휘 크기가 모델에 미치는 영향

어휘 크기를 설정할 때는 '표현력'과 '효율성' 사이의 트레이드-오프(Trade-off)를 고려해야 한다.

3.1. 어휘 크기가 클 때의 장단점

장점	단점
단어 하나가 하나의 토큰으로 매핑되어 시퀀스 길이가 짧아짐	임베딩 층(Embedding Layer)과 출력 층(Softmax Layer)의 파라미터 수가 급증함
모델이 더 구체적인 의미 정보를 학습할 수 있음	메모리 사용량이 증가하고 학습 및 추론 속도가 느려짐
텍스트 복원 시 더 자연스러운 결과 도출 가능	희소 데이터(Rare words)에 대한 학습 부족으로 성능 저하 가능성

3.2. 어휘 크기가 작을 때의 장단점

장점	단점
모델 파라미터 수가 줄어들어 가볍고 빠름	단어를 너무 잘게 쪼개어 시퀀스 길이가 길어짐 (연산량 증가)
적은 데이터로도 각 토큰에 대한 충분한 학습 가능	토큰 하나당 담긴 의미 정보가 적어 모델의 이해도가 낮아질 수 있음
메모리 효율성이 높음	텍스트 생성 시 일관성이 떨어질 수 있음

4. 기술적 구현 및 계산

모델의 마지막 층인 Softmax 층의 크기는 어휘 크기($V$)와 동일하다. 모델이 다음 토큰을 예측할 때, $V$개의 후보군 중 하나를 선택해야 하기 때문이다.

4.1. 파라미터 계산 예시

만약 임베딩 차원이 $d=512$이고, 어휘 크기가 $V=50,000$이라면, 임베딩 층에서만 필요한 파라미터 수는 다음과 같다. $$\text{Parameters} = V \times d = 50,000 \times 512 \approx 25.6 \text{ million}$$ 어휘 크기가 10만 개로 늘어나면 파라미터 수도 두 배로 증가하며, 이는 GPU 메모리 압박으로 이어진다.

4.2. 최적화 기법: Weight Tying

최근 모델들은 메모리 절약을 위해 Weight Tying 기법을 사용한다. 이는 입력 임베딩 층의 가중치 행렬을 출력 층의 가중치 행렬과 공유하는 방식으로, 파라미터 수를 획기적으로 줄이면서 성능을 유지하는 방법이다.

5. 요약 및 결론

어휘 크기는 단순히 단어의 개수를 정하는 것이 아니라, 모델의 입출력 효율성과 표현력의 균형을 잡는 과정이다.

전통적 방식: 단어 단위 $\rightarrow$ 어휘 크기 너무 큼, OOV 문제 발생.
현대적 방식: 서브워드 단위 $\rightarrow$ 적절한 어휘 크기 유지, OOV 문제 해결.

최근의 거대 언어 모델(LLM)들은 보통 32,000개에서 128,000개 사이의 어휘 크기를 설정하며, 다국어 모델의 경우 더 많은 언어를 수용하기 위해 어휘 크기를 더 크게 확장하는 경향이 있다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 어휘 크기 (Vocabulary Size)

## 1. 개요
**어휘 크기(Vocabulary Size)**란 자연어 처리(NLP) 모델이 텍스트 데이터를 처리하기 위해 정의한 **고유한 토큰(Token)의 총 개수**를 의미한다. 언어 모델은 텍스트를 직접 이해할 수 없으므로, 텍스트를 숫자 형태의 벡터로 변환하는 과정이 필요하다. 이때 모델이 인식할 수 있는 '단어 사전'의 크기가 바로 어휘 크기가 된다.

어휘 크기는 모델의 성능, 메모리 사용량, 그리고 학습 속도에 직접적인 영향을 미치는 핵심 하이퍼파라미터 중 하나이다.

---

## 2. 토큰화와 어휘 크기의 관계
어휘 크기를 결정하기 위해서는 먼저 텍스트를 어떤 단위로 쪼갤 것인지 결정하는 **토큰화(Tokenization)** 전략이 선행되어야 한다.

### 2.1. 단어 단위 토큰화 (Word-level Tokenization)
공백이나 구두점을 기준으로 단어를 나누는 방식이다.
- **특징**: 직관적이며 단어의 의미를 잘 보존한다.
- **문제점**: 
    - **어휘 폭발**: 언어의 형태소 변화가 심할수록(예: 한국어, 영어의 굴절어) 어휘 크기가 기하급수적으로 증가한다.
    - **OOV(Out-of-Vocabulary) 문제**: 학습 데이터에 없던 단어가 등장하면 모델이 이를 처리하지 못하고 `[UNK]`(Unknown) 토큰으로 처리하게 된다.

### 2.2. 문자 단위 토큰화 (Character-level Tokenization)
개별 문자(알파벳, 한글 자모음 등) 단위로 나누는 방식이다.
- **특징**: 어휘 크기가 매우 작으며(예: 영어 알파벳 26자 + 특수문자), OOV 문제가 발생하지 않는다.
- **문제점**: 
    - 토큰 하나가 가지는 의미가 너무 적어 모델이 문맥을 파악하기 위해 더 긴 시퀀스를 처리해야 하므로 연산 비용이 증가한다.

### 2.3. 서브워드 토큰화 (Subword Tokenization)
단어와 문자 단위의 절충안으로, 빈번하게 등장하는 문자열은 하나의 토큰으로 묶고, 드문 문자열은 더 작은 단위로 쪼개는 방식이다. 현대의 LLM(Large Language Models)에서 주로 사용된다.
- **주요 알고리즘**:
    - **BPE (Byte Pair Encoding)**: 가장 빈번한 문자 쌍을 반복적으로 병합하여 어휘 사전을 구축한다. (GPT 시리즈에서 사용)
    - **WordPiece**: 가능도(Likelihood)를 최대화하는 방향으로 병합한다. (BERT에서 사용)
    - **SentencePiece**: 공백을 포함하여 학습하며, 언어에 구애받지 않고 적용 가능하다. (T5, Llama 등에서 사용)

---

## 3. 어휘 크기가 모델에 미치는 영향

어휘 크기를 설정할 때는 **'표현력'**과 **'효율성'** 사이의 트레이드-오프(Trade-off)를 고려해야 한다.

### 3.1. 어휘 크기가 클 때의 장단점
| 장점 | 단점 |
| :--- | :--- |
| 단어 하나가 하나의 토큰으로 매핑되어 시퀀스 길이가 짧아짐 | 임베딩 층(Embedding Layer)과 출력 층(Softmax Layer)의 파라미터 수가 급증함 |
| 모델이 더 구체적인 의미 정보를 학습할 수 있음 | 메모리 사용량이 증가하고 학습 및 추론 속도가 느려짐 |
| 텍스트 복원 시 더 자연스러운 결과 도출 가능 | 희소 데이터(Rare words)에 대한 학습 부족으로 성능 저하 가능성 |

### 3.2. 어휘 크기가 작을 때의 장단점
| 장점 | 단점 |
| :--- | :--- |
| 모델 파라미터 수가 줄어들어 가볍고 빠름 | 단어를 너무 잘게 쪼개어 시퀀스 길이가 길어짐 (연산량 증가) |
| 적은 데이터로도 각 토큰에 대한 충분한 학습 가능 | 토큰 하나당 담긴 의미 정보가 적어 모델의 이해도가 낮아질 수 있음 |
| 메모리 효율성이 높음 | 텍스트 생성 시 일관성이 떨어질 수 있음 |

---

## 4. 기술적 구현 및 계산

모델의 마지막 층인 **Softmax 층**의 크기는 어휘 크기($V$)와 동일하다. 모델이 다음 토큰을 예측할 때, $V$개의 후보군 중 하나를 선택해야 하기 때문이다.

### 4.1. 파라미터 계산 예시
만약 임베딩 차원이 $d=512$이고, 어휘 크기가 $V=50,000$이라면, 임베딩 층에서만 필요한 파라미터 수는 다음과 같다.
$$\text{Parameters} = V \times d = 50,000 \times 512 \approx 25.6 \text{ million}$$
어휘 크기가 10만 개로 늘어나면 파라미터 수도 두 배로 증가하며, 이는 GPU 메모리 압박으로 이어진다.

### 4.2. 최적화 기법: Weight Tying
최근 모델들은 메모리 절약을 위해 **Weight Tying** 기법을 사용한다. 이는 입력 임베딩 층의 가중치 행렬을 출력 층의 가중치 행렬과 공유하는 방식으로, 파라미터 수를 획기적으로 줄이면서 성능을 유지하는 방법이다.

---

## 5. 요약 및 결론
어휘 크기는 단순히 단어의 개수를 정하는 것이 아니라, 모델의 **입출력 효율성과 표현력의 균형**을 잡는 과정이다. 

- **전통적 방식**: 단어 단위 $\rightarrow$ 어휘 크기 너무 큼, OOV 문제 발생.
- **현대적 방식**: 서브워드 단위 $\rightarrow$ 적절한 어휘 크기 유지, OOV 문제 해결.

최근의 거대 언어 모델(LLM)들은 보통 32,000개에서 128,000개 사이의 어휘 크기를 설정하며, 다국어 모델의 경우 더 많은 언어를 수용하기 위해 어휘 크기를 더 크게 확장하는 경향이 있다.

---
**관련 문서**
- [토큰화(Tokenization)](https://ko.wikipedia.org/wiki/토큰화)
- [BPE(Byte Pair Encoding)](https://ko.wikipedia.org/wiki/BPE)
- [워드 임베딩(Word Embedding)](https://ko.wikipedia.org/wiki/워드_임베딩)

AI 생성 콘텐츠 안내

이 문서는 AI 모델(gemma-4-31b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나